[CVPR 2022]针对场景文本检测的视觉语言模型预训练
一、研究背景
二、方法介绍
本文提出了一个全新的用于场景文本检测预训练的框架—VLPT-STD,它基于视觉语言模型设计,可以有效地利用文本、图像两种模态的特征,使得网络提取到更丰富的特征表达。其算法流程如图1所示,主要分为Image Encoder,Text Encoder以及Cross-model Encoder三个部分,并且设计了三个预训练任务让网络学习到跨模态的表达,提高网络的特征提取能力。
2.1 模型结构
Image Encoder用于提取场景文本图片的视觉特征编码,Text Encoder则提取图片中文本内容的编码,最后视觉特征编码和文本内容编码一起输入Cross-model Encoder当中进行多模态特征融合。
Image Encoder 包含了一个ResNet50-FPN的主干网络结构和一个注意力池化层。场景文本图像首先输入到ResNet50-FPN中得到特征,然后通过注意力池化层得到一个图像特征编码序列
Text Encoder先将输入的文本转化成一个编码序列
Cross-model由四个相同的Transformer Decoder组成,它将视觉编码序列和文本编码序列W结合到了一起,并将其最后的输出用于预测Masked Language Modeling预训练任务。
图1 VLPT-STD整体框架
2.2 预训练任务
本文定义了三个预训练任务,包括Image-text Contrastive Learning(ITC)、Word-in-image Prediction(WIP)和Masked Language Modeling(MLM)。
Image-text Contrastive Learning(ITC)的目的是使得文本编码序列的每一项都能在视觉编码序列中找到最相似的编码,也就是让每个单词的文本编码与其对应的文本图片区域视觉特征匹配(例如,“Last”的Text Embedding与图片中“Last”位置的区域特征相似度最高)。
该任务对每个图像编码
Word-in-Image Prediction(WIP)是通过在图像编码和文本单词编码中应用对比学习去区分出现在图片中的文本(正类)与不存在德文本(负类),从而预测给定的一组单词是否出现在输入图片中。如图1左上角所示,训练时图片中有的单词作为正样本,其编码为
Masked
Language Modeling (MLM)类似于BERT,该任务首先随机掩盖文本编码w,然后让网络利用所有的视觉特征编码v和未被掩盖的文本编码
最终的损失函数为:
三、实验
3.1 实验细节
本文提出的VLPT-STD在SynthText [5]上进行预训练,然后将预训练得到的主干网络用于EAST [6],PSENet [7]和DB [2]这三个文本检测器在各个公开的真实场景数据集上进行Finetune。实验使用了八块v100,Batch Size为800。
3.2 与State-of-the-art的方法比较
表格1到表格3展示了文章提出的预训练方法与之前预训练方法对于三个不同的文本检测器性能提升的对比。
3.2 消融实验
首先是对模型设计的消融实验,如表格4所示。文章探究了Image Encoder中作者改进的FPN结构和Cross-model Encoder中Cross-attention的作用。
其次是对预训练任务的消融实验,如表格5所示。
最后是对预训练的数据集进行了探究,作者对比了SynthText和TextOCR [8]两种数据集,结果如表6所示。
3.3 可视化结果
文章首先展示了Cross-model当中Attention Map的可视化结果。可以看到一个文本是与Attention Map中高亮区域是一一匹配的。
然后文章展示了和之前预训练方法STKM [3] 对比的检测结果。
四、总结与讨论
参考文献
[1] Minghang He, et al. MOST: A multi-oriented scene text detector with localization refinement. In CVPR, 2021.
[2] Minghui Liao, et al. Real-time scene text detection with differentiable binarization. In AAAI, 2020.
[3] Qi Wan, Haoqin Ji, and Linlin Shen. Self-attention based text knowledge mining for text detection. In CVPR, 2021.
[4] Aaron van den Oord, Yazhe Li, and Oriol Vinyals. Representation learning with contrastive predictive coding. arXiv preprint arXiv:1807.03748, 2018.
[5] A. Gupta, A. Vedaldi and A. Zisserman, "Synthetic Data for Text Localisation in Natural Images,"2016 IEEE Conference on Computer Vision and Pattern Recognition (CVPR), Las Vegas, NV, 2016, pp. 2315-2324.
[6] Xinyu Zhou, et al. EAST: an efficient and accurate scene text detector. In CVPR, 2017.
[7] Xiang Li, et al. Shape robust text detection with progressive scale expansion network. In CVPR 2019.
原文作者:Sibo Song, Jianqiang Wan, Zhibo Yang, Jun Tang, Wenqing Cheng, Xiang Bai, Cong Yao
撰稿:刘崇宇
免责声明:(1)本文仅代表撰稿者观点,撰稿者不一定是原文作者,其个人理解及总结不一定准确及全面,论文完整思想及论点应以原论文为准。(2)本文观点不代表本公众号立场。
往期精彩内容回顾
[CVPR 2022] 内容感知的文字标志图像生成方法
[IEEE TIFS 2022] 深度软动态时间规整:用于联机签名认证的局部表征学习新方法(有源码)
基于概率分布图的任意形状文本实例分割和检测方法(有源码)
[IJCAI 2022] 平面几何图例解析(有源码和数据集)
论文推荐|[CVPR 2022]通过权重平衡的长尾识别(有源码)
[IEEE TPAMI 2022] 基于定制化迭代和采样的高效查询黑盒对抗攻击(有源码)
[ACL2022] FormNet:表单文档信息抽取中超越序列建模的结构编码方法
[CVPR2022] 端到端的场景文字检测与版面分析统一框架
[AAAI 2022] BROS:一种专注于文本和版面信息的预训练语言模型,用于更好地抽取文档关键信息(有源码)
[CVPR 2022] Mobile-Former: Bridging MobileNet and Transformer
欢迎加入中国图象图形学学会!(附入会攻略)
扫码关注,获取最新OCR资讯